查看原文
其他

【Github】2019年达观信息提取比赛第九名代码和答辩PPT

lonePatient AINLP 2020-10-22

作者:lonePatient(AINLP技术交流&竞赛群群友)

Github地址,点击阅读原文直达:

https://github.com/lonePatient/daguan_2019_rank9




datagrand_2019_rank9

2019年达观信息提取比赛第九名代码和答辩ppt

比赛地址:官网

代码目录结构

├── pydatagrand
| └── callback
| | └── lrscheduler.py  
| | └── trainingmonitor.py 
| | └── ...
| └── config
| | └── basic_config.py #a configuration file for storing model parameters
| └── dataset   
| └── io    
| | └── dataset.py  
| | └── data_transformer.py  
| └── model
| | └── nn 
| | └── pretrain 
| └── output #save the ouput of model
| └── preprocessing #text preprocessing
| └── train #used for training a model
| | └── trainer.py
| | └── ...
| └── common # a set of utility functions
├── prepare_fold_data.py # 数据切分
├── prepare_lm_data_mask.py # 随机mask
├── prepare_lm_data_ngram.py #ngram mask
├── run_bert_crf.py # crf结构
├── run_bert_span.py   # span结构
├── train_bert_model.py  #训练bert模型

预训练模型

主要训练了8层跟12层BERT模型,采用随机mask + ngram mask两种混合动态masking模式

方案1

方案1主要采用BERT+LSTM+CRF结构

方案2

方案2在方案1的基础上增加了MDP结构

方案3

方案3主要采用BERT+LSTM+SPAN结构

结果

最终结果如下所示:

文档

十强答辩ppt下载地址: https://pan.baidu.com/s/1yvXFf5GzyvDksdBKNp9FKQ 提取码: svr2




推荐阅读:

【Github】Data Competition Top Solution: 数据竞赛top解决方案开源整理

2019法研杯比赛--阅读理解任务第4名团队参赛总结

法研杯cail2019阅读理解比赛记录(第5名团队分享)



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存